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摘 要 : 基于 视觉 的 同时 定位 和 建 图 (VSLAM) 分 为 前 端 和 后 端 ， 前 端 包 括 视 觉 里 程 计 和 回环 检测 ， 后 端 包 括 后 
端 优化 和 建 图 。 按 照 估计 相机 运动 的 不 同方 式 ， 将 VSLAM 分 为 特征 点 法 和 直接 法 。 首 先 从 这 两 个 方面 对 前 端 进行 
综述 ， 阐 述 其 中 的 关键 技术 和 最 新 的 研究 进展 ， 对 比分 析 不 同方 法 的 优 缺 点 ; 然后 详细 分 析 优 化 后 端 与 滤波 器 后 端 
的 区 别 ， 进 一 步 地 对 多 个 开源 代码 进行 比较 研究 ， 分 析 它 们 的 优 和 劣势 和 适用 场合 ; 再 讨论 深度 学 习 、 语 义 地 图 和 多 
机 器 人 在 VSLAM 领域 的 研究 进展 , 以 及 相关 技术 与 VSLAM 的 结合 方式 及 前 景 ; 最 后 对 VSLAM 的 未 来 进行 展望 。 
关键 词 : VSLAM; 视觉 里 程 计 ; 特征 点 法 ; 直接 法 ; 非 线 性 优化 
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Abstract: Visual simultaneous localization and mapping (VSLAM) is divided into front-end and back-end. The front-end 


includes visual odometry and loop detection, and the back-end includes back-end optimization and mapping. This paper 
divided VSLAM into feature-based method and direct method according to different ways of estimating camera motion. 
Firstly, it summarized the front-end from these two aspects, the key technologies and elaborated the latest research progress, 
@) and compared and analyzed different methods. Then, it analyzed the differences between the optimize back-end and the 
Q) filter back-end in detail. Further, it compared the advantages and disadvantages of several open source codes and their 
applicable occasions. Then, it introduced the research progress of deep learning, semantic mapping and multi-robots in 
A VSLAM, and discussed the combination of related technologies with VSLAM and its prospects. Finally, it prospected the 
"n future of VSLAM. 

Key words: VSLAM; VO; feature-based method; direct method; nonlinear optimization 


同时 定位 与 地 图 构建 Csimultaneous localization and ” 测 、 建 图 。 其 中 VO 研究 图 像 帧 间 变 换 关 系 完成 实时 的 位 姿 
mapping, SLAM) 05 是 机 器 人 进入 未 知 环境 遇 到 的 第 一 个 跟踪， 对 输入 的 图 像 进行 处 理 ， 计 算 姿态 变化 ， 得 到 相机 间 
问题 。 它 是 指 机 器 人 搭 载 特定 传感器 ， 在 没有 环境 先 验 信 息 的 运动 关系 ; 但 是 随 着 时 间 的 累计 ， 误 差 会 累积 ， 这 是 由 于 
的 情况 下 ， 于 运动 过 程 中 对 周围 环境 建 模 并 同时 估计 自身 的 仅仅 估计 两 个 图 像 间 的 运动 造成 的 ， 后 端 主要 是 使 用 优化 方 
位 姿 B]。 如 果 传 感 器 主要 为 相机 ， 那 么 就 称 为 视觉 SLAM 法, 减 小 整个 框架 误差 〈 包 括 相 机 位 姿 和 空间 地 图 点 )。 回 环 
CVSLAM) l., SLAM 技术 已 经 研究 和 发 展 了 三 十 多 年 , 研 检测， 又 称 闭 环 检测 ， 主 要 是 利用 图 像 间 的 相似 性 来 判断 是 
究 人 员 已 经 做 了 大 量 的 工作 ， 近 十 年 来 ， 随 着 计算 机 视觉 的 否 到 达 过 先前 的 位 置 ， 以 此 来 消除 累计 误差 ， 得 到 全 局 一 致 
发 展 ，VSLAM 以 其 硬件 成 本 低廉 、 轻 便 、 高 精度 等 优势 获 。 性 轨迹 和 地 图 。 建 图 ， 根 据 估 计 的 轨迹 ， 建 立 与 任务 要 求 对 
得 了 学 术 界 和 工业 界 的 青睐 。 应 的 地 图 。 

a 现在 比较 通常 的 惯例 是 把 VSLAM 分 为 前 端 和 后 端 。 前 
1 VSLAM 的 系统 框架 端 为 视觉 里 程 计 和 回环 检测 ,相当 于 是 对 图 像 数 据 进行 关联 


pul 


AL 


VSLAM 是 利用 多 视图 几何 理论 回 ， 根 据 相 机 拍摄 的 图 “后 端 是 对 前 端 输出 的 结果 进行 优化 ， 利 用 滤波 或 非 线性 优化 
像 信息 对 相机 进行 定位 并 同时 构建 周围 环境 地 图 。 按 照相 机 ”理论 ， 得 到 最 优 的 位 姿 估 计 和 全 局 一 致 性 地 图 。 
的 分 类 ， 有 单 目 、 双 目 、RGBD、 鱼 腿 、 全 景 等 。 NTH 。 jw 
本 文 只 考虑 普通 相机 。 Bi 

从 VSLAM 的 提出 到 目前 为 止 ， 经 过 研究 者 们 十 多 年 不 ”2.1 视觉 里 程 计 
WBA, VSLAM 框架 基本 形成 ,如 图 1 所 示 。VSLAM 主要 前 端 中 的 视觉 里 程 计 ， 为 通过 采集 的 图 像 得 到 相机 间 的 
包括 视觉 里 程 计 (visual odometry，VO)、 后 端 优化 、 回 环 检 “运动 估计 ， 视 觉 里 程 计 问 题 可 由 图 2 描述 ( 双 目 立体 视觉 里 
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程 计 )。 视 觉 系统 在 运动 过 程 中 , 在 不 同时 刻 获 取 了 环境 的 图 检测、 匹配 、 运 动 估计 和 优化 ， 如 图 4 所 示 。 


像 ， 而且 相 邻 时 刻 的 图 像 必 须 有 足够 的 重 盖 区 域 ， 则 视觉 系 

统 的 相对 旋转 和 平移 运动 可 被 估算 出 来 ， 然 后 将 每 两 个 相 邻 il uas in 
时 刻 之 间 视 觉 系 统 的 运动 串联 起 来 ,可 以 得 到 累计 的 视觉 系 tay Lo) s TE à [30-20[—) ie 
统 相对 于 参考 坐标 系 的 旋转 和 平移 。 入 | | 测 配 it |3D-3p| | 化 


图 4 特征 点 法 流程 示意 图 
Fig.4 Flow diagram of feature-based method 

特征 点 可 以 称 为 兴趣 点 、 显 著 点 、 关 键 点 等 。 以 点 的 位 

置 来 表示 的 点 特征 是 一 种 最 简单 的 图 像 特征 。 特 征 点 可 以 分 

为 关键 点 和 描述 子 两 部 分 。 事 实 上 ， 特 征 点 是 一 个 具有 一 定 

特征 的 局 部 区 域 的 位 置 标志 ， 称 其 为 点 ， 是 将 其 抽象 为 一 个 


- 位 置 概念 , 以 便于 确定 两 幅 图 像 中 同一 个 位 置 点 的 对 应 关系 ， 
图 1 VSLAM Alice 所 以 在 特征 匹配 过 程 中 是 以 该 特征 点 为 中 心 ， 将 邻 域 的 局 部 
Fig. 1 VSLAM system framework 特征 进行 匹配 。 也 就 是 说 在 进行 特征 匹配 时 首先 要 为 这 些 特 


征 点 建立 特征 描述 ， 这 种 特征 描述 通常 称 之 为 描述 子 。 本 文 
希望 特征 点 在 不 同时 刻 不 同 位 置 都 能 保持 稳定 ， 一 个 好 的 特 
征 点 应 该 拥有 可 重复 性 、 可 区 别 性 、 高 效 性 。 
VSLAM 中 常用 的 特征 检测 算法 主要 有 SIFTIS"SURFIY、 
FASTI9、ORB09 等 。 每 种 都 有 自己 的 优 劣 00， 其 中 尺度 不 变 
特征 转换 (scale-invariant feature transform，SIFT) 首 先 通 过 
差分 高 斯 (DoG) 算 子 对 图 像 的 上 下 尺度 进行 卷 积 运算 ， 旬 
后 在 尺度 和 空间 上 获取 输出 的 局 部 最 小 值 或 最 大 值 。SURF 
建立 在 SIFT E, HI SIFT 加 速 版 ， 它 使 用 盒 式 滤波 器 来 近 


al 


imli 
penu] 


E] 2 视觉 里 程 计 的 问题 描述 示意 图 似 高 斯 滤波 器 ， 它 们 充分 考虑 了 在 图 像 变换 过 程 中 出 现 的 光 
Fig.2 VO problem description diagram 照 、 尺 度 、 旋 转 等 变化 ， 从 这 点 上 看 非常 适合 SLAM， 但 随 
如 图 2 Pras, 视觉 里 程 计 的 任务 就 是 已 知 k=0 的 初始 位 。 之 而 来 的 是 极 大 的 计算 量 。 到 目前 为 止 ， 如 果实 时 地 利用 


置 C。( 这 可 以 根据 情况 自己 定义 )， 求 相机 的 运动 轨迹 SIFT 特征 进行 VSLAM， 还 需要 GPU 加 速 。 
Con ={G0,…G,} ， 即 当前 的 位 置 C. 通过 7 和 上 一 时 刻 的 位 置 FAST 是 一 种 角 点 ， 主 要 检测 局 部 像素 灰 度 变化 明显 的 
Cu 来 计算 ， 算 式 为 C -G€a*n. AP: n KOH KH 时 刻 地方。 如 果 候 选 关键 点 像素 灰 度 值 与 邻 域 的 像素 灰 度 值 差别 


的 相机 相对 位 置 变化 ,可 根据 相应 时 刻 采 集 的 图 像 计算 出 来 ， ”过 大 (比如 邻 域 采用 半径 为 3 的 圆 上 连续 像素 点 超过 9)， 那 

从 而 恢复 相机 的 运动 轨迹 。 么 它 即 为 角 点 。FAST 的 特点 是 快 ， 但 是 它 不 具备 尺度 和 旋 
视觉 里 程 计 可 分 为 特征 点 法 和 直接 法 (图 3)。 特征 点 法 转 的 不 变性 。 

主要 是 根据 图 像 上 的 特征 匹配 关系 得 到 相 邻 帧 间 的 相机 运动 ORB 对 原始 的 FAST 算法 进行 了 改进 : 对 原始 的 FAST 


估计 ， 它 需要 对 特征 进行 提取 和 匹配 ， 然 后 根据 匹配 特征 构 。 角 点 分 别 计算 Harris 响应 值 ， 然 后 排序 和 选取 较 大 响应 值 的 
建 重 投 影 误 差 函 数 ,并 将 其 最 小 化 从 而 得 到 相机 的 相对 运动 。 ”和 角 点 ;通过 构建 图 像 金字 塔 降 采 样 ， 并 在 每 一 层 上 检测 角 点 
直接 法 是 假设 两 帧 图 像 中 的 匹配 像素 的 灰 度 值 不 变 ， 构 建 光 ”实现 尺度 不 变 特性 ;， 以 图 像 块 的 次 度 质心 和 几何 中 心得 到 特 
度 误差 函数 ， 也 将 其 最 小 化 求解 帧 间 的 相机 运动 。 征 点 的 方向 。 不 仅 如 此 ，ORB 在 提取 FAST 角 点 后 还 使 用 了 


- BRIEF 特征 描述 。 

特征 点 法 直接 法 
BRIEF02 是 一 种 二 进 制 编码 的 特征 描述 子 ， 它 使 用 从 关 
iis Fo, idis y» EN 键 点 周围 的 块 中 采样 的 成 对 亮度 比较 。 由 于 使 用 二 进 制 表达 
JL 提取 图 像 特征 和 存储 ， 所 以 速度 非常 快 。 原始 的 BRIEF 描述 子 没有 考虑 方 
PEMSRHRE aq, Ti ORB 在 提取 FAST 角 点 时 考虑 了 尺度 和 方向 ， 所 以 


ee yon. ORB 即 具 备 了 FAST 和 BRIEF 的 速度 快 的 特点 ,又 具备 了 较 

好 的 尺度 和 旋转 不 变性 。 

m | 期 特征 点 的 匹配 多 采取 跟踪 方式 , 比如 检测 关键 点 (不 

最 小 化 重 投影 误差 UE 最 小 化 光度 误差 Jl. 需要 描述 子 )， 采 用 光 流 跟踪 得 到 关键 点 的 匹配 。 通 常 为 了 排 

CC 除 误 跟 踪 ， 可 以 采用 一 致 性 检测 。 这 种 适合 相 邻 帧 之 间 的 运 
3 zy 


"DAN — te, 动量 和 外 观 变 化 较 小 的 情况 。 
ie ae LL m— — T H Buzz 


€ 如 果 两 帧 之 间 的 运动 量 和 外 观 变化 较 大 ， 本 文 需要 计算 

图 3 特征 点 法 和 直接 法 VSLAM 系统 示意 图 两 帧 之 间 的 特征 点 和 描述 子 ， 比 较 描述 子 间 的 距离 〈 如 汉 明 

Fig.3 Schematic diagram of feature-based method and direct method 距离 )。 由 于 计算 量 的 关系 ， 很 少 采用 穷尽 的 方式 进行 匹配 ， 

VSLAM system 多 采用 恒 速 等 模型 在 预期 cierto genta Het ER 。 如 果 

2.1.1 特征 点 法 是 双 目 匹配 或 者 深度 滤波 器 中 计算 每 个 像素 的 深度 ， 通 常 采 
特征 点 法 的 原理 为 : 通过 提取 和 匹配 相 邻 图 像 的 特征 点 ”用 极 线 搜索 和 采用 归 一 化 互相 关 (Cnormalized cross correlation, 


估计 该 帧 间 对 应 的 相机 相对 运动 。 特 征 点 法 的 步骤 包括 特征 NCC) 或 绝对 误差 和 (sum of squared differences, SSD) $È 
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到 匹配 点 。 对 于 双 目 来 说 ， 为 了 保证 准确 匹配 ， 可 以 采用 环 。 示 相 机 外 参 ( 李 代数 为 &E)，Z, 表示 深度 值 ， 式 中 隐 含 了 齐 次 

检测 对 左右 和 前 后 总 共 四 张 图 像 验证 是 否 形成 匹配 环 0。 ”和 非 齐 次 间 的 转换 。 如 果 考 虑 图 像 中 所 有 匹配 的 特征 点 则 得 

运动 估计 就 是 根据 特征 点 的 匹配 情况 ， 恢 复出 两 帧 间 的 到 如 下 函数 : 

相机 运动 。 针 对 特征 点 匹配 的 情况 ， 运 动 估计 分 为 2D-2D、 Rips, dus E 1 P 

3D-2D. 3D-3D (图 5)。 其 求解 方法 可 以 分 为 几何 方法 和 优 n| 1 1 [Faremi Phot - nl -anmin?, “Ke 

化 方法 。 几 何方 法 主要 是 根据 对 极 几何 理论 得 到 两 帧 间 的 对 然后 使 用 李 代 数 上 的 扰动 模型 分 析 其 导数 ， 并 通过 高 斯 

应 关系 ; 而 优化 方法 主要 是 构建 两 帧 间 的 重 投影 误差 并 使 其 。” 牛顿 等 优化 方法 得 到 两 帧 间 的 相对 变换 ， 具 体 做 法 又 叫 作 捆 

最 小 ， 从 而 得 到 帧 间 变 换 。 集 优 化 (bundle adjustment, BA) P99， 在 编程 上 一 般 采 用 
General Graph Optimization (G20) 等 优化 库 实现 。 

3D-3D 主要 是 激光 SLAM KHARE A ACP ) 求 解 。 

在 VSLAM 中 , 可 以 在 RGB-DSLAM 中 使 用 , 但 由 于 RGB-D 

相机 的 限制 ， 仅 仅 适 用 室内 ， 而 且 适 用 小 的 场景 。 这 是 由 于 

深度 的 估计 不 准 ， 导 致 误差 比 3D-2D 大 。 直 观 的 感觉 是 ， 相 

机 得 到 的 3D 位 置 误差 较 大 〈 相 机 方向 性 好 ， 距 离 信 息 误差 


5 2D-2D 示意 图 


Fig.5 2D-2D schematic diagram 
2D-2D 主要 是 针对 单 目 相机 的 初始 


次 深度 信息 


K), 3D-2D 只 使 用 
度 信 导致 计算 
避 3D-3D 的 方式 。 


PEL 


化 过 程 ， 在 不 知道 空 


， 但 是 


3D-3D 采用 两 次 深 


的 精确 度 降 低 ， 所 以 在 普通 相机 中 


般 回 


间 中 3D 点 的 情况 下 《如 未 进行 初始 化 ) 通过 两 帧 间 匹 配 的 
特征 点 进行 帧 间 相 机 运动 估计 (图 5)。 这 涉及 到 对 极 几 何 中 
本 质 和 矩阵 CE) 或 单 应 性 矩阵 CHO. 的 相关 理论 及 其 分 解 ， 通 4 
常 在 图 像 的 特征 匹配 中 难免 会 有 “外 点 ”可 以 采用 随机 采样 \ 
一 致 (RANSAC) 得 到 最 大 “内 点 ” 子 集 的 EE 或 HH。 对 极 约 \ 
R (图 6), Pi. Po 和 t 共 面 得 到 p (1xpi)=0， 进 一 步 得 到 re m AS out 
prEp, =0, FP E-ULR 。 针 对 EE Mae, 经 典 的 八 点 法 是 当 exp (§ ) 
ERTETTEK, FA RBZ SI E 所 在 的 流 形 上 ( 利 47 SEHE AEGRIS 
H E MAHER), AA, EC di AER) Fig.7  Reprojection error diagram 
通过 5 点 法 求解 09。 有 文章 提 到 利用 八 个 点 求 卫 得 到 的 解 更 2.1.2 直接 法 
精确 。 实 际 中 这 些 影响 可 以 忽略 ， 因 为 通常 将 该 结果 作为 初 特征 点 法 有 几 个 问题 
值 ， 随 后 通过 优化 求解 。 针 对 单 应 性 矩阵 H OAA AE), a) 关键 点 的 提取 和 描述 子 的 计算 非常 耗 时 ， 如 果 保 证 
它 描述 的 是 两 个 平面 间 的 运动 关系 ， 当 特征 点 都 集中 在 同一 SLAM 实时 运行 ， 需 要 30 Frame/s， 也 就 是 每 帧 图 像 的 处 理 
个 平面 上 (如 无 人 机 俯 拍 地 面 ), 则 通过 单 应 性 来 进行 运动 估 时 间 约 30 ms, 而 实时 性 最 好 的 ORB 也 需要 近 20 ms/FrameP!; 
ito H 可 以 用 四 组 (每 三 组 不 共 线 ) 匹配 特征 点 采用 直接 线 b) 特征 点 法 仅仅 使 用 了 图 像 中 几 百 个 特征 点 , 占 整个 图 
性 变换 法 (DLT) 算出 053。 采 用 哪 种 方案 求 出 相机 间 的 运动 像 几 十 万 个 像素 的 很 小 部 分 ， 丢 弃 了 大 量 可 以 利用 的 图 像 信 
估计 , 根据 各 个 不 同 的 应 用 场合 , SVO 采用 分 解 HH 主要 用 息 ; 
无 人 机 的 俯 拍 ,， ORBSLAM 同时 求解 E M H 进行 打分 ， 选择 c) 特征 点 的 寻找 是 根据 人 类 自己 设计 的 检测 算法 , 并 不 
分 数 高 的 方案 。 完善 ,有 些 图 像 没有 明显 的 纹理 ,有 些 图 像 的 纹理 比较 相似 ， 
这 种 情况 下 特征 点 法 的 VSLAM 就 很 难 运行 ; 
d) 特征 点 法 只 能 得 到 空间 的 稀疏 三 维 点 云 。 离 稠密 地 图 
尚 有 一 定 的 距离 ， 与 用 于 机 器 人 导航 的 地 图 差距 就 更 大 了 。 
直接 法 根据 像素 灰 度 信 悍 息 估 计 相 机 的 运动 ， 几 乎 不 用 计 
算 关 键 点 和 描述 子 ， 省 去 了 计算 关键 点 和 描述 子 的 时 间 ， 可 
以 在 特征 点 缺失 但 是 有 图 像 灰 度 梯度 的 场合 (当然 对 于 一 张 
Aba, 它 也 无 能 为 力 )。 相 比 于 特征 点 法 只 能 构建 稀疏 点 云 地 
图 (构建 半 稠 密 或 稠密 需要 采取 其 他 技巧 ), 直接 法 具备 构建 
图 6 对 极 几何 视图 半 稠 密 和 稠密 地 图 的 能 
Fig.6 Epipolar geometry view 
3D-2D 就 是 PnP apes SV n-point) 求解 3D 到 2D 点 
对 运动 的 方法 ， 描 述 的 是 当知 道 N 个 3D 空间 点 及 其 投影 位 
置 时 (例如 单 目 , 已 经 初始 化 完毕 , 知道 特征 点 的 3D 位 置 )， [— M 
如 何 估计 相机 位 姿 。 当 然 双 目 或 者 深度 相机 可 以 直接 使 用 | = | 
PoP. IERRA DLT. P3PU71, EPnPIS! UPnP), HAZE | i \ 
常用 的 做 法 是 先 采 用 了 P3P 得 到 初始 解 ,然后 构建 重 投影 误差 ， ss pv 
使 之 最 小 化 ， 如 图 7 Brzs. Pi 和 Po 是 空间 点 P-[X, Y, z 第 1 帧 a gy - 第 2 帧 
的 投影 ， 在 初始 解 中 了 的 投影 为 马 ， 
B -fw vf =iKTP= kee? , K 为 相机 内 参 ，R，t 表 到 8” 光度 误差 示意 图 


Fig.8 Photometric error diagram 
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与 特征 点 法 中 特征 点 的 特性 不 变 有 所 不 同 ， 直 接 法 的 不 ” 3. ， 而 RIAB-MAPI 采用 关键 帧 比较 相似 性 ， 


变量 是 对 应 像素 点 的 灰 度 值 。 首 先 假设 两 个 像素 点 在 第 一 帧 。” DLoopDetector?^! (在 DBoW2 基础 上 开发 的 


与 第 二 帧 之 间 灰 度 值 保持 不 变 , 如 图 8 所 示 , Pi 和 Po 


au 


环 检测 库 ) R 


的 灰 度 ”用 连续 帧 的 相似 性 检测 判断 是 否 存 在 回环 。 


值 是 一 样 的 ， 直 接 法 的 思路 是 根据 当前 相机 的 位 姿 估 计 来 寻 回环 检测 主要 由 BoW 模块 、 算 法 模块 、 验 证 模块 三 个 
找 P? 的 位 置 ， 如 果 相机 位 姿 不 好 ，P2 和 Pi 的 外 观 会 有 明显 。 部 分 组 成 。 

差别 。 为 了 减少 这 个 差别 ， 本 文 优化 相机 位 姿 ， 寻 找 与 Pi Bow 模块 分 为 图 像 预 处 理 、 特 征 提取 、 特 征 聚 类 和 统计 
更 相似 的 P2。 这 就 是 在 灰 度 不 变 假设 下 ， 直 接 采 用 两 帧 图 像 。” 得 到 图 像 的 码 本 。 

中 的 匹配 像素 的 灰 度 值 ， 构 建 光度 误差 的 优化 函数 ， 改 变相 a) 图 像 预 处 理 : 假设 训练 集 有 M 幅 图 像 ， 将 图 像 标准 
机 位 姿 使 之 最 小 化 。 根 据 图 像 像素 P 的 情况 ， 直 接 法 分 为 稀 ”化 为 patch， 统 一 格式 和 规格 。 

疏 、 半 稠密 和 稠密 直接 法 。P 如 果 是 稀 玻 关键 点 ， 称 之 为 稀 b) 特征 提取 : 假设 M 幅 图 像 , 对 每 一 幅 图 像 提 取 特 征 ， 


WERA: P 如 果 是 图 像 中 梯度 明显 的 点 , 称 之 为 半 稠 密 法 ; 共 提取 出 N 个 SIFT 特征 


c) ERX: 采用 K-Means 算法 把 N 个 对 象 分 为 K 个 


P 如 果 是 图 像 中 的 所 有 像素 ， 称 之 为 稠密 法 。 

直接 法 的 优化 问题 构建 : 考虑 某 个 空间 点 P[X, Y, Z]", E (视觉 单词 表 ), 使 徐 内 具有 较 高 的 相似 度 , 而 簇 间 相似 度 
Pi, P2 分 别 为 投影 坐标 ， 本 文 设 第 一 个 相机 为 初始 点 ， 第 二 SK. 
个 相机 相对 变换 为 R、t( 李 代数 为 &)，Z1 和 Zo 是 对 应 的 深 d) 统计 得 到 图 像 的 码 本 : 每 幅 图 像 以 单词 表 为 规范 对 该 
度 值 ，K 为 相机 的 内 参 ， 那 么 投影 方程 分 别 为 名 图像 的 每 一 个 SIFT 特征 点 计算 它 与 单词 表 中 每 个 单词 的 
ES lap "TEM "E Km p«n- Kepe, 距离 ， 最 近 的 加 l, 便 得 到 该 幅 图 像 的 码 本 。 还 需要 码 本 矢 

l 5 3 量 归 一 化 ， 因 为 每 图 像 的 SIFT 特征 个 数 不 定 ， 所 以 需 

测量 误差 为 P1 和 Po MARKEE: e=10)-LO). BUNA ”要 归 一 化 。 
是 改变 相机 位 姿 使 所 有 误差 和 减 小 ， 考 虑 图 像 所 有 像素 ， 构 算法 模块 分 为 贝 叶 斯 估计 方法 和 相似 性 方法 。 
建 优 化 函数 〈 整 幅 图 像 像素 Pi 的 误差 二 范 数 和 ， 优 化 变量 为 贝 叶 斯 估计 方法 : 采用 BoW 描述 机 器 人 每 一 位 置 的 场 
相机 位 姿 )，minJ(5 -部 qs 。 其 中 ，。 表 示 图 像 中 所 有 对 应 RES MCAREN ERENER, es 


刻 ， 计 算 该 新 场景 图 像 与 已 访问 位 置 匹配 的 后 验 概率 ， 概 率 


的 导数 品 和 采用 优化 库 求解 。 


的 Pi 和 Po 的 灰 度 差 。 与 特征 点 法 一 样 ， 也 需要 推导 李 代数 ”大 于 阔 值 则 标记 为 闭环 。 


7 


相似 性 方法 : 有 了 字典 以 后 ， 给 定 任 意 特征 点 fi, A 


同样 地 ， 直 接 法 也 有 自己 的 局 限 ， 首 先 它 需要 满足 光度 ”在 字典 树 中 逐 层 查找 ， 最 后 都 能 找到 与 之 对 应 的 单词 wi。 通 


2.2 回环 检测 


nu 


环 检测 就 是 利用 传感器 有 效 地 检测 出 以 前 经 过 这 里 ， 


不 变性 假设 ， 这 对 相机 提出 了 很 高 的 要 求 ， 而 且 稠密 法 因为 ”” 常 字典 足够 大 ， 本 文 可 以 说 这 俩 来 自 同一 类 物体 。 但 是 这 种 
需要 计算 图 像 的 所 有 像素 (640*480 就 是 30 万 个 像素 )， 很 ”方法 对 所 有 单词 都 是 同样 对 待 ， 常 规 的 做 法 是 采用 TF-IDE 
难 在 现 有 CPU 上 实时 运行 。 在 前 端 , 特征 点 法 和 直接 法 最 大 (term frequency-inverse document frequency) B1, TF 〈 某 个 
的 区 别 在 于 ， 直 接 法 是 依赖 于 梯度 搜索 ， 如 果 两 帧 采集 时 间 ”特征 在 一 副 图 像 中 出 现 的 频率 ) 的 思想 是 : 某 单 词 在 一 副 图 
过 大 ， 可 能 图 像 运动 距离 过 大 ， 导 致 灰 度 不 规则 变化 ， 从 而 像 中 经 常 出 现 ， 它 的 区 分 度 就 越 高 ，IDE 的 思想 是 ， 某 单词 
梯度 搜索 的 优化 函数 进入 局 部 最 小 ,无 法 给 出 较 好 的 优化 解 ; 在 字典 中 出 现 的 频率 越 低 ， 则 图 像 分 类 时 的 区 分 度 越 高 。 设 
而 特征 点 法 对 运动 和 光照 有 一 定 的 鲁 棒 性 ， 是 根据 特征 点 对  ” 所 有 特征 数量 为 n， 某 个 节点 wi 所 含 的 特征 数量 为 nm， 那么 
— S n Mb ste yh ee E El Y > Bi y 

REIÐAN, SOR SLAM REIR gail) IDE 为 155 -log 于 ， 设 图 像 A 中 单词 Wi 出 现 了 四 


次 ， 而 一 共 出 现 的 单词 次 数 是 n, IA TF Xy TE- T, 定义 


‘EMF SLAM 系统 意义 非常 重要 P9, 因为 无 论 你 的 数据 多 么 ”wi 的 权重 为 %=7TExIDFK 。 将 权重 应 用 于 图 像 A， 得 到 词 袋 向 


的 精确 ， 模 型 多 么 的 优秀 ， 系 统 的 累积 误差 始终 存在 。 
能 正确 地 检测 到 回环 ， 对 构建 全 局 一 致 性 地 图 是 非常 有 帮助 
环 检测 对 跟踪 失败 后 的 1 


au 


j: 从 男 一 方面 ， 可 以 利用 
了 重 定位 。 
在 VLSAM 中 回 


不 检测 大 多 数 做 法 是 基于 外 观 ， 
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如 果 ER va $ On m) Qm) Wy ty) o 通过 Ll 范 数 计算 A、B 图 像 
的 相似 度 s. 7 = 22 Wail +a Las — vu] B24。 得 到 相似 度 评分 之 


后 ， 由 于 环境 千差万别 ， 有 的 环境 外 观 或 十 分 相似 或 很 大 差 
比较 图 “ 异 ， 所 以 采用 绝对 的 相似 度 阔 值 很 难处 理 ， 可 以 采用 先 验 相 
以 


情况 进 


4 度 再 归 一 化 或 者 相对 的 度量 方式 。 
， 假 设 验证 模块 主要 有 时 间 一 致 性 和 结构 一 致 性 校 验 。 


像 通常 都 包含 1 000 个 SIFT 特征 , 在 进行 图 像 相似 度 时 间 一 致 性 : 正确 的 回环 往往 存在 时 间 上 的 连续 性 ， 所 


像 间 的 相似 性 233。 如 果 用 特征 点 的 方式 ， 比 如 采用 SIFT 特 
征 描述 图 像 ， 首 先 每 个 SIFT 矢量 都 是 128 维 的 

每 幅 图 

计算 时 ,这 个 计算 量 非常 大 ,所 以 通常 不 会 直接 采用 特 


征 点 ， 以 如 果 之 后 一 段 时 间 内 能 用 同样 的 方法 找到 回环 ， 则 认为 当 


而 是 采用 词 袋 模型 。 


前 回环 是 正确 的 ， 也 叫做 顺序 一 致 性 约束 。 


方法 ， 后 引入 到 计算 机 视觉 领域 ， 逐 渐 成 为 一 种 很 


词 袋 模型 (pags of words，BoW)P9 早 期 是 一 种 文本 表征 结构 一 致 性 校 验 : 对 回环 检测 到 的 两 帧 进行 特征 匹配 并 
I 效 的 图 占 计 相机 运动 ， 因 为 各 个 特征 点 在 空间 中 的 位 置 是 唯一 不 变 


像 特征 建 模 方法 P33， 它 通 过 提取 图 像 特征 ， 再 将 特征 


进行 分 。 的 ， 与 之 前 的 估计 误差 比较 大 小 。 


类 构建 视觉 字典 ， 然 后 采用 视觉 字典 中 的 单词 集合 可 


以 表征 前 还 没有 专门 针对 直接 法 的 回环 检测 方法 ， 主 流 的 世 


一 个 向 量 。 这 对 判断 图 像 间 的 关联 很 有 帮助 ， 所 以 目 


任 一 幅 图 像 。 换 句 话说 ， 通 过 BoW 可 以 把 一 张 图 片 表示 成 ” 环 检测 都 是 利用 特征 点 采取 BOW 方式 。 换 句 话说 
前 比较 。” 还 是 依赖 于 特征 点 ， 从 这 个 角度 来 看 ， 特 征 点 法 有 很 大 的 优 
流行 的 回环 解决 方案 都 是 采用 的 BoW 及 其 基础 上 衍生 的 算 。 235. 特征 点 法 已 经 提取 了 特征 ， 直 接 用 这 些 特征 去 不 


可 环 检 测 


改 回环 检 


法 IAB-MAPP9。FAB-MAPP" 约 是 在 滤波 框架 下 计算 


可 坏 概 W: 而 直接 法 没有 提取 特征 ， 如 果 想 做 回环 检测 ， 必 须要 另 
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外 提取 特征 ,这 也 是 ORBSLAM 和 LSDSLAM 中 的 回环 检测 使 用 USB 相机 《早期 的 版 本 只 能 使 用 网 口 相 机 )。 但 是 该 
采取 的 不 同 的 方式 。 架 存 在 应 用 场景 窗 、 路 标 数 量 有 限 等 限制 ， 仅 仅 用 于 实验 室 
ORBSLAM 中 的 回环 检测 与 整个 系统 结合 得 比较 紧密 ， 内 小 规模 环境 下 的 相机 姿态 定位 和 环境 构建 ， 后 面 对 它 的 开 
整个 系统 都 是 采用 的 ORB 特征 ， 首 先 离线 训练 得 到 ORB 词 ”发 也 已 经 停止 。 
, 在 搜索 时 因为 ORBSLAM 本 身 就 已 经 计算 了 特征 点 和 描 YN 
R, 可 以 直接 用 特征 来 搜索 , mH. ORBSLAM 采用 正 向 和 反 
句 两 种 辅助 指标 : 反 向 指标 在 节点 (单词 ) 上 储存 到 达 这 个 
节点 的 图 像 特征 的 权重 信息 和 图 像 编号 ， 因 此 可 用 于 快速 寻 
找 相似 图 像 。 正 向 指标 则 储存 每 幅 图 像 上 的 特征 以 及 其 对 应 
的 节点 在 词典 树 上 的 某 一 层 父 节 点 的 位 置 ， 因 此 可 用 于 快速 
特征 点 匹配 (只 需要 匹配 该 父 节 点 下 面 的 单词 )。 


LSDSLAM 是 采用 OpenFABMAP (OpenCV 上 实现 的 图 9 MonoSLAM 的 运行 显示 图 
FAB-MAP) 来 完成 回环 功能 。FAB-MAP 在 贝 叶 斯 框架 下 ， Fig.9 Monoslam operation display 
采用 Chou-Liu treeB3] 估 计 单 词 的 概率 分 布 ， 能 够 完成 大 规模 随 着 SLAM 问题 研究 的 深入 及 其 应 用 逐步 从 小 场景 转 
环境 下 的 闭环 检测 问题 ， 但 是 它 通过 连续 的 当前 帧 数据 与 历 向 大 场景 ， 基 于 滤波 的 SLAM 方法 越 来 越 受 到 局 限 。 比 如 


史 帧 数据 比较 ， 效 率 较 低 ， 不 能 满足 实时 地 回环 检测 。 个 人 EKF 方法 需要 把 路 标 放 进 状 态 ， 由 于 VSLAM 中 路 标 数量 很 
感觉 LSDSLAM 中 的 回环 检测 是 为 了 完成 这 个 大 的 系统 , 额 ” 大， 而 且 储 存 的 状态 量 呈 平方 增长 〈 协 方差 矩阵 )， 所 以 
外 添加 的 模块 ， 其 实 与 系统 契合 度 不 是 很 高 。 EKFSLAM 被 普遍 认为 不 适合 大 型 场景 。 再 者 ， 滤 波 方法 假 
设 马尔 可 夫 性 ， 假 设 当前 状态 只 与 上 一 时 刻 相关 ， 而 与 之 前 


3 Rim 状态 和 观测 都 无 关 ， 这 种 处 理 方 式 使 得 滤波 器 很 难处 理 回 环 
3.1 后 端 优化 等 问题 。 
SLAM 的 后 端 求解 方法 可 大 致 分 为 两 大 类 ， 一 类 是 基于 而 基于 非 线 性 优化 方法 倾向 于 使 用 所 有 的 历史 数据 ， 称 


滤波 器 的 方法 ， 另 一 类 则 是 非 线性 优化 方法 。 这 是 根据 假设 WEW SLAM (full SLAM)。 从 某 种 程度 上 说 ， 非 线性 优化 
的 不 同 ， 如 果 假 设 马尔 可 夫 性 ，K 时刻 状态 只 与 K-1 时 刻 状 ”使 用 了 更 多 的 信息 ， 当 然 能 获得 更 好 的 建 图 效果 。Strasdat 
态 有 关 ， 而 与 之 前 的 状态 无 关 ， 这 样 会 得 到 以 扩展 卡尔 曼 滤 ”等 人 B9 证 明了 在 相同 的 计算 单元 下 ， 基 于 优化 的 方法 比 基 于 
iX (EKF) 为 代表 的 滤波 器 方法 。 在 滤波 方法 中 ， 本 文 会 从 ”滤波 的 方法 能 够 获得 更 高 的 精度 。 

某 时 刻 的 状态 估计 推导 到 下 一 个 时 刻 。 另 外 一 种 方法 是 考虑 。 3.1.2 非 线性 优化 方法 

K 时刻 与 之 前 所 有 状态 的 关系 ， 这 将 得 到 非 线性 优化 为 主体 代价 函数 的 建立 :在 VSLAM 中 ,如 果 不 考虑 运动 方程 ， 


i 


的 优化 框架 喇 。 假设 观测 误差 e=z-Aep) ， 其 中 h O 为 观测 方程 , 为 外 
3.1.1 滤波 方法 参 R,t 对 应 的 李 代 数 , 三 维 点 P 是 路 标 ,k 像 素 坐 标 z=[w,w] o 


最 早 定位 和 建 图 是 作为 两 个 独立 的 领域 进行 研究 ， 在 文 。 如果 考虑 所 有 的 观测 量 ， 那 么 整体 的 代价 函数 为 
献 [34] 中 证 实 可 以 统一 到 一 个 框架 中 保持 收敛 ， 然 后 由 于 mu ee JM 
S cam. x m uu S. Dull - Z2 Go), AERP RR ALD FER AE, 
运动 方程 和 一 个 观测 方程 ,顺理成章 地 把 SLAM 融入 到 滤波 。 相当 于 对 所 有 相机 位 姿 和 路 标 同时 调整 ， 使 目标 函数 最 小 ， 
框架 中 。 早 期 的 SLAM 研究 基本 都 是 在 滤波 器 的 框架 下 。 在 。 ”这 就 是 bundle adjustment (BA) [9。 过 去 ， 研 究 者 普遍 认 
假定 从 0 到 + 时刻 的 观测 信息 以 及 控制 信息 已 知 的 条 件 下 ， ”为 非 线性 优化 方法 计算 量 非 常 大 ， 不 适合 实时 计算 ;直到 最 
对 系统 状态 的 后 验 概率 进行 估计 ， 根 据 后 验 概率 表示 方式 的 EHE, SLAM 问题 中 BA 的 稀 玻 特 性 才 逐 渐 被 认识 到 ， 才 


= 


不 同 ,存在 多 种 基于 滤波 器 的 方法 , 如 扩展 卡尔 曼 滤 波 (EKF) ”使 它 能 够 在 实时 的 场景 中 应 用 B71。 

方法 、 粒 子 滤波 (PF) 等 。 对 上 式 BA 的 求解 ， 无 论 是 采用 高 斯 牛顿 还 是 列 文 伯 格 
第 一 个 实时 单 目 VSLAM 是 帝国 理工 大 学 的 Davison 等 ” — HH; SR fF (LM ) 方法 , 最 后 都 将 面临 增 量 方 程 : Hax=g 。 

ABSI 2006 年 发 布 的 MonoSLAM。 它 以 扩展 卡尔 曼 滤波 为 以 高 斯 牛顿 为 例 ，H 矩阵 为 瑟 =J?7 ， 由 于 雅 可 比 矩 阵 J 包 含 

后 端 ， 追 踪 前 端 非 常 稀 玻 的 特征 点 ， 以 相机 的 当前 状态 和 所 了 所 有 的 路 标点 ， 尤 其 是 VSLAM 中 ， 一 幅 图 像 至 少 会 提取 

有 路 标点 为 状态 量 ， 更 新 其 均值 和 协 方差 。 图 9 所 示 是 AANEEN WRA H RÉ ARENO (n3)), 计 

MonoSLAM 在 运行 时 的 情形 。 可 以 看 到 , 单 目 相机 在 一 幅 图 算 

像 当 中 追踪 了 一 些 稀疏 的 特征 点 ， 所 以 本 文 能 够 以 一 个 椭 球 

的 形式 表达 它 的 均值 和 不 确定 性 。 在 该 图 的 右 半 部 分 ， 本 文 

可 以 找到 一 些 在 空间 中 分 布 着 的 小 球 。 它 们 在 某 个 方向 上 显 

得 越 长 ， 说 明 在 该 方向 的 位 置 就 越 不 确定 。 可 以 想象 ， 如 果 fav ta) tak 

一 个 特征 点 收敛 ， 应 该 能 看 到 它 从 一 个 很 长 的 椭 球 (相机 Z ~/ ~ NA J 

方向 上 不 确定 性 很 大 ) 最 后 变 成 一 个 小 点 的 样子 (在 EKF 中 ， 图 10 ”观测 示意 图 

假设 每 个 特征 点 的 位 置 服 从 高 斯 分 布 ,如果 一 个 特征 点 收敛 ， Fig. 10 Observation diagram 


那 它 最 后 汇聚 为 一 个 小 点 )。 和 矩阵 H 的 稀疏 结构 20: 假设 场景 中 有 两 个 相机 位 姿 (al， 
该 工作 在 当时 已 经 是 里 程 碑 的 工作 了 ， 因 为 在 此 之 前 的 ” a2) 和 六 个 路 标 (bl1，...，b6) (图 10)，al 观测 到 路 标 bl、 

视觉 SLAM 系统 基本 不 能 在 线 运行 , 只 能 事先 使 用 相机 采集 b2, b3, b4, a2 观测 到 路 标 b3、b4、b5、b6， 则 雅 可 比 J 
数据 ， 然 后 离线 地 进行 定位 与 建 图 。2012 年 Kim 在 原版 的 。 为 8*8 的 矩阵 (两 个 相机 位 姿 加 六 个 路 标 ), 具体 表示 如 下 所 
基础 上 实现 了 加 强 ， 加 入 了 Eigen 和 Panglion 库 ， 而 且 可 以 ES 
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如 图 11 fiat, A, = 0%, òa, 是 关于 相机 位 姿 的 雅 可 比 ， te aa 
BADE SD AARAA EA E A au er e eum 如 拓扑 地 
当 jk 时， 它们 是 无 关 的 。 比 如 考虑 其 中 一 个 ei， 它 只 描述 ”图 和 度量 地 图 组 成 的 混合 地 图 ， 上 层 的 拓扑 地 图 实现 粗略 的 
了 在 a 看 到 b; 这 件 事 ， 只 涉及 第 i 个 相机 位 姿 和 第 j 个 路 标 ”全 局 路 径 规划 ， 底 层 的 度量 地 图 实现 精确 的 定位 和 路 径 的 优 


gd. XE 
表示 在 a 看 到 了 b, 5 


分 的 变量 的 导数 者 


eu 所 对 应 的 雅 可 比 和 矩阵， 从 而 得 到 如 图 12 


比 形 式 ， 


ie PE A | 


X £8 ER fe OE E36 7] POT 


再 进一步 得 到 如 图 12 (b) 所 示 的 和 矩阵 H CH 的 稀 
J 引 起 的 )。 因 为 VSLAM 中 路 标 数量 至 少 也 有 数 百 


是 一 个 维 数 很 大 的 对 角 块 矩阵 ， 该 


Fig. 12 Sparse Structur 


可 比 矩 阵 的 稀疏 特性 ， 现 在 3 
优化 的 方法 ， 使 用 G20 等 库 来 求解 BA。VSLAM 的 后 端 仅 
仅 出 现 过 一 个 基于 滤波 器 的 MonoSLAM, 之 后 都 是 非 线性 优 


图 11 


为 0。 更 简单 地 说 ， 残 差 en 
其 他 的 相机 位 姿 和 路 标 无 关 ，Jil 为 


E 阵 H AREER. AFL, X 
采用 Schur 消 元 〈 也 称 做 边缘 化 )， 具 体 BA 


Ca) 所 示 的 雅 可 


Aij 和 Bi 示意 图 


Fig. 11 Aj and Bij schematic 


_ Cl C2 PI P2 P3 P4 P5 P6 


图 12 J ee BA AA H JE RE HIFA A PIS 2k 
al Diagrams of J Matrix and H Matrix 

随 着 计算 机 性 能 的 进步 ， 以 及 逐渐 认识 到 VSLAM 中 雅 
E 流 的 VSLAM 都 是 采用 非 线性 


化 统一 了 后 端 : 一 是 EKF 


但 是 VS 


需要 对 地 图 和 相机 位 置 进行 更 新 ， 


LAM 中 路 标的 数 


ZJARA ETF, 


法 没有 这 样 的 限制 ;还 有 非 线 性 
的 模型 是 相关 的 ， 而 EKF 很 


平方 增长 , 所 以 EKF 被 普遍 认为 不 适合 


存储 的 状态 量 呈 
的 场景 ， 而 优化 方 


这 和 回环 检测 上 
3.2 建 图 
也 图 的 具体 形式 主要 
和 混合 地 图 。 
路 标 地 图 ， 由 一 堆 路 标点 组 成 ， 在 


SLAM 4 


FP 比 较 常见 。 


有 路 标 


(= 


优化 可 以 利用 历史 所 有 数据 ， 


Kl. mł 


难 做 回环 检测 。 


地 图 、 度 量 地 图 


期 的 基于 EKF 的 


体 的 位 置 关 


点 云 地 图 ， 直 


在 VSLAM 中 广泛 应 用 的 是 度量 地 图 ， 它 精确 
物 


系 ， 可 按 稀 琉 和 稠密 划分 。 特 征 


可 以 通过 的 信息 
VSLAM 中 建 
2D 图 像 中 的 信 ， 
过 程 和 位 姿 估计 


地 表示 地 
点 法 得 到 


Hii AA 接 法 得 到 半 稠 密 或 稠密 地 图 。 针 对 稠密 的 
度量 地 图 ， 当 查询 某 个 空间 位 置 时 ， 地 图 能 够 给 出 该 位 置 是 
不 
Li o 

图 的 基本 原理 是 通过 三 角 测量 或 深度 估计 ， 


息 转 换 为 空间 3D 路 标点 。 在 VSLAM 中 建 


过 程 是 同时 完成 的 。 


在 单 目 VSLAM F, 仅仅 通过 单 张 图 像 无 法 获得 像素 3D 


音 息 ， 需 要 通过 三 


在 ， 无 法 得 到 精确 


测量 来 进行 估计 。 一 方面 ， 


于 噪声 存 


解 ， 男 一 方面 ， 当 平移 很 小 时 ， 


不 确定 性 将 导致 较 
的 相机 分 辩 率 下 ， 
曾 大 ， 会 导致 匹配 
可 通过 多 帧 图 像 来 


极 线 来 获得 3D 信息 。 
深度 估计 在 建 图 模块 中 
VSLAM 系统 中 都 有 专门 的 线程 对 


大 的 测量 不 确定 性 ， 平 移 较 大 时 


像素 上 的 
， 在 相同 


三 角 测 量 将 更 精确 。 它 有 如 下 了 矛 


E: 平移 


失效 ， 平移 太 小 ， 三 角 化 精度 不 


够 。 因 此 


减少 3D 点 的 不 确定 度 或 采用 尽 


T 


可 能 宽 的 


, 通常 在 


据 非 常 重要 的 地 位 
对 其 进 4 


进行 处 理 。SVO 采用 高 


斯 加 上 均匀 分 布 的 


， 并 不 断 


方法 估计 三 维 空间 点 的 深度 信息 


更 新 ， 直 到 其 收敛 。 在 LSDSLAM 中 ， 针 对 关键 帧 ， 通 过 之 
前 关键 帧 的 点 投影 初始 化 当前 帧 的 深度 估计 ;针对 非 关键 帧 ， 
通过 卡尔 曼 滤 波 不 断 地 利用 观测 值 对 深度 进行 修正 。 
4 ”开源 算法 比较 
按照 特征 法 和 直接 法 的 分 类 ， 各 种 VSLAM 具备 不 同 的 
处 理 速度 、 轨 迹 精 度 等 指标 ， 如 表 1 所 示 。 随 着 VSLAM 的 
研究 如 火 如 茶 地 开展 ， 许 多 研究 者 发 表 研 究 成 果 以 及 公开 相 
关 代 码 ， 供 学 者 学 习 与 研究 。 下 面 针 对 VSLAM 发 展 历程 中 
几 个 最 具 代 表 性 的 开源 系统 进行 详细 介绍 与 综述 。 
表 1 VSLAM 分 类 比较 
Table 1 VSLAM classification comparison 
特征 法 Bk 混合 法 
处 理 速 度 * wy YOOX 
估计 轨迹 精度 trod Yck * 
适应 场景 能 力 x AAK tere 
硬件 适应 性 YOOX * wr 
初始 化 适应 性 YOOX * wr 
构建 地 图 能 力 次 六 次 六 六 * 
可 扩展 性 YOOX * * 
信息 利用 * Yo * 
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4.1 特征 点 法 运动 模糊 和 相机 旋转 的 影响 。 
4.1.1 PTAM PTAM 是 为 小 场景 AR 设计 的 ， 没 考虑 全 局 的 回环 ， 而 


PTAM Æ 2007 年 由 牛津 大 学 主动 视觉 实验 室 的 Georg 有 旦 存在 明显 的 缺陷 : 场景 小 (实际 情况 是 6000 个 点 和 150 


Klein 和 David Murray 提出 的 。 当 时 给 研究 者 们 带 来 了 极 大 AREWO 跟踪 容易 丢失 等 , 但 是 在 当时 确实 是 一 个 里 程 碑 
震撼 ， 它 有 如 下 创新 点 : 的 标志 。 

a) PTAM 第 一 个 使 用 非 线 性 优化 。 之 前 人 们 未 认识 到 后 4.1.2 ORBSLAM 
端 优化 的 稀 玻 性 ， 所 以 觉得 优化 后 端 无 法 实时 处 理 那 样 大 规 ORBSLAM 4] JG HEA Raul 博士 于 2015 年 公布 ， 其 
模 的 数据 ， 主 流 的 SLAM 均 采 用 EKF 滤波 器 等 滤波 方法 。 论文 发 表 在 《IEEE Transactions on Robotics》。 到 前 为 IE; 


而 PTAM 则 是 一 个 显著 的 反例 , 将 VSLAM 研究 逐渐 转向 了 《ORBSLAM 是 最 完整 的 基于 特征 点 法 VSLAM， 它 可 以 看 做 

以 非 线性 优化 为 主导 的 后 端 。 是 PTAM 的 一 个 延伸 ， 相 比 PTAM，ORBSLAM 增加 了 一 个 

b) PTAM 引入 了 关键 帧 机 制 。 不 必 精细 地 处 理 每 一 幅 轿 可 环 检测 Coop closing) 的 线程 。 该 系统 框架 包括 跟踪 、 建 

像 ,而 仅仅 处 理 较 少 的 关键 帧 图 像 , 然后 优化 其 轨迹 和 地 图 。 图 、 闭 环 三 个 线程 ， 均 基于 ORB 特征 实现 ， 所 有 优化 环节 

c) PTAM 引入 了 多 线程 机 制 。 将 跟踪 和 建 图 过 程 分 开 。 都 通过 优化 框架 G20 实现 。 
区 | 


天 为 跟踪 部 分 需要 实时 响应 图 像 数 据 ， 而 地 图 则 没 必 要 实时 ORBSLAM 有 如 下 创新 点 : 
地 优化 ， 只 需 在 后 台 进 行 处 理 。 这 是 VSLAM 中 首次 区 分 出 a) 初始 化 采用 自动 机 制 ， 不 需要 手工 输入 ， 也 不 需要 假 
前 后 端的 概念 ， 初 步 确定 了 VSLAM 的 框架 。 设 场 景 是 否 为 平面 。 通 过 匹配 ORB 特征 同时 计算 单 应 性 和 
PTAM 主要 分 为 跟踪 、 建 图 两 部 分 。 基础 矩阵 并 评分 ， 选 用 分 数 高 的 方案 。 
PTAM 的 跟踪 分 为 粗 阶 段 和 精 阶段 。 在 粗 阶段 中 选用 图 b) 将 改进 后 的 ORB 特征 贯穿 整个 工程 始终 ， 包 括 特征 
像 金字 塔 最 高 层 的 50 个 特征 点 ,利用 恒 速 模型 和 扩大 范围 搜 检测、 匹配 以 及 用 于 闭环 的 词 袋 模型 (bag-ofwords，BoW) 
索 ， 从 这 些 测量 中 得 出 一 个 新 姿态 ， 再 将 近 千 个 特征 点 重新 | (MI. 


投影 到 图 像 中 ,执行 更 严格 的 块 搜索 FAST 特征 的 局 部 8*8 c) 使 用 DBOW 模块 ,不 只 是 用 于 1loop closing 时 的 检测 ， 
的 方块 构成 patch 作为 描述 符 )， 并 构建 重 投 影 误差 得 到 最 优 而 且 用 于 系统 的 重 定位 。 更 大 的 意义 是 在 图 像 帧 间 匹 配 时 ， 
的 相机 姿态 。 使 用 词典 对 描述 子 进行 分 类 的 结果 进行 比 对 ， 这 种 方法 不 仅 
也 图 构建 主要 是 建立 三 维 地 图 点 的 过 程 。 它 分 为 地 图 的 有 效 ， 还 可 以 大 大 简化 运算 。 
初始 化 和 地 图 的 更 新 。 首 先 ， 系 统 初始 化 时 使 用 三 角 测 量 构 d) 后 端 优化 是 亮点 ，ORB 在 每 一 层 估计 中 都 大 量 采 用 
建 初始 地 图 ， 在 此 之 后 ， 随 着 添加 新 的 关键 帧 ， 地 图 将 不 断 ” G20 优化 ,不 仅 有 单 帧 位 姿 估计 到 局 部 地 图 的 位 姿 估 计 ， 而 
地 进行 细 化 和 扩展 。 具 体 为 : 系统 初始 化 时 ， 根 据 前 两 个 关 有 局 部 地 图 点 与 位 姿 联 合 估 计 ， 还 有 利用 回环 结果 的 全 局 
键 帧 提供 的 特征 对 应 关系 ， 采 用 5 点 算法 和 随机 采样 一 致 or S 
CRANSAC ) 估计 本 质 矩 阵 (或 使 用 平面 情况 的 单 应 性 分 解 ) ORBSLAM 的 具体 流程 为 : 
并 三 角 化 得 到 初始 地 图 。 然 后 当 插 入 关键 帧 时 ， 使 用 极 线 搜 a) 跟 踪 。 跟 踪 线 程 主要 是 得 到 相机 位 姿 和 关键 帧 。 有 具体 
索 和 块 匹 配 ( 零 均值 距离 平方 和 ZMSSD) 计算 得 到 精确 匹 为 : 先 对 图 像 进行 ORB 特征 提取 和 匹配 ,系统 初始 化 得 到 R, 
从 而 精细 化 地 图 。PTAM 系统 框图 如 图 13 所 示 。 t 和 3D 点 云 ( 如 果 系 统 未 初始 化 ); 然后 采用 参考 关键 帧 模 
nC | pee meee = 0 型 或 运动 模型 和 BoW 模块 加 速 匹 配 (如果 跟踪 失败 也 是 将 
D RS d 3 |o 当前 帧 和 所 有 关键 帧 通过 BoW 加 速 匹配 )， 再 构建 局 部 小 图 
f | | 图 像 预 处 理 a ee a ea E 
| =l i 和 重 投影 误差 优化 函数 ; 最 后 得 到 b br ERU A BE o 
m 等 待 新 关键 帧 | | 投影 特征 点 投影 特征 点 | b) 建 图 。 跟 踪 线 程 主要 是 更 新 3D 点 和 插入 关键 帧 。 具 
| | | 体 为 ， 取 出 一 个 关键 帧 ， 计 算 特征 点 的 BoW 关系 ， 更 新 关 
新 建 特征 点 | | | aen mus] | o 键 帧 间 的 连接 关系 ,将 关键 帧 插入 地 图 ,验证 加 入 的 地 图 点 ， 
i | | i i | 利用 三 角 法 生成 新 的 地 图 点 ， 对 相 邻 关键 帧 和 对 应 的 3D 点 
| Le 地 图 优化 | | | 更 新 相机 姿态 更 新 相机 次 者 ;进行 局 部 BA， 剔 除 完 余 关键 帧 ， 将 关键 帧 加 入 闭环 ; 
| | fa ware} 0) 闭 环 。 闭 环线 程 主要 是 纠正 尺度 漂移 和 全 局 优化 。 
地 图 维护 | 绘制 结果 | RA: 取出 一 个 关键 帧 ， 计 算 当 前 关键 帧 与 每 个 共 视 关键 由 
d Poo 的 BoW fjr, EMA R pop HH A eder, XR ES. 
图 13 PTAM 系统 框图 性 检测 验证 候选 帧 ， 去 做 sim3 优化 dg (纠正 尺度 漂移 ， 使 
Fig. 13 PTAM system block diagram 其 尺度 一 致 ), 利用 优化 结果 寻找 更 多 的 特征 匹配 , FE A 38 
PTAM 不 仅仅 是 VSLAM 的 程序 ， 还 将 相机 的 标定 和 增 优化 ， 如 果 内 点 足够 ， 接 收 这 个 闭环 ， 最 后 固定 回环 帧 和 当 
强 现实 CARO 都 包括 进来 ， 而 且 试 图 在 手机 上 实现 ， 从 另外 前 帧 再 做 全 局 优化 。 


的 角度 也 可 以 说 它 是 面向 >” 个 增强 现实 软件 。 ORBSLAM 在 工程 上 是 非常 完整 的 SLAM 系统 , 里 面 涉 
PTAM 的 最 开始 的 版 本 是 建议 采用 5 点 算法 器] 分 解 本 质 矩 阵 ” 及 的 很 多 参数 都 是 通过 计算 得 出 ， 后 续 有 大 量 的 学 者 在 其 妇 
得 到 相机 姿态 , 该 方法 用 CFE Hg RTH «SR PTAM ” 础 上 改进 ,随后 Raul 在 前 面 的 基础 上 利用 宽 基线 做 了 更 加 精 
的 初始 化 改变 为 使 用 单 应 性 中 ， 其 中 场景 假定 为 2D 平面 。 密 的 半 稠 密 地 图 构建 的 工作 Cd，2017 年 又 将 IMU 融入 到 
以 现在 的 知识 来 看 PTAM 的 DEMO 可 能 有 点 过 时 ,比如 它 。 ORBSLAM 中 M381, 由 此 可 见 ORBSLAM 的 可 扩展 性 很 好 。 245 
的 初始 化 需要 用 户 的 输入 来 捕捉 地 图 中 的 前 两 个 关键 帧 ， 而 “， 然 与 许多 其 他 的 基于 特征 点 的 SLAM 系统 一 样 ,有 很 多 自身 
且 它 要 求 用 户 在 第 一 与 第 二 关键 帧 之 间 采 取 平 行 于 观察 场景 ” 的 缺陷 ， 因 为 特征 点 的 原因 ， 只 能 得 到 稀疏 点 云 地 图 ， 这 对 
的 缓慢 和 平滑 的 平移 运动 。 因 为 它 采 用 的 2D-2D 的 图 像 匹 配 ”机 器 人 下 一 步 的 导航 应 用 会 造成 很 大 困难 ， 而 且 它 不 易 作 为 
算法 为 不 考虑 特征 仿 射 变换 的 ZMSSD 算法 ， 所 以 容易 受到 ”环境 地 图 的 描述 ， 也 很 难 构建 高 层次 地 图 (语义 地 图 等 ), 给 
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股 为 本 文人 类 根据 图 像 的 一 些 特性 ， 
自然 的 本 质 和 意义 ; 在 特征 
时 间 都 耗费 在 特征 的 提取 和 匹配 上 ， 特 征 点 
是 取 更 好 的 特征 点 ;， 相 比 之 下 ， 直 


直接 通过 两 帧 之 间 的 像素 灰 


缺失 的 场合 下 使 


4.2 直接 法 


4.2.1 LSDSLAM 

DTAM” Æ É 
算法 ， 对 每 个 
的 不 确定 性 。 该 方法 通过 整 
相机 位 姿 ， 但 是 需 
基于 同样 


因此 直接 法 可 以 在 特征 


H, 是 2011 年 提出 的 单 目 SLAM 


图 和 对 应 的 半 笛 密 深 度 图 。 
LSDSLAM 是 直接 法 中 比较 完整 的 SLAM 系统 ， 能 够 在 
普通 CPU 上 实现 半 稠 密 SLAM (梯度 明显 的 像素 )， 后 续 
Engel 对 LSDSLAM 进行 了 功能 拓展 ， 使 其 能 够 支持 双 目 相 
机 653 和 全 景 相 机 5。 但 是 它 存在 一 定 缺点 : 对 相机 内 参 和 了 曝 
光 非 常 敏感 ， 而 且 准 确 性 方面 不 及 ORBSLAM， 速 度 方面 不 
及 DSO， 作 者 后 续 研 究 了 光度 标定 ， 将 其 扩展 应 用 于 DSO 
系统 Chttps://github.com/JakobEngel/dso )。 
4.2.2 DSO 

DSO65 为 Engel 在 2016 年 发 布 的 一 个 视觉 里 程 计 方法 ， 
天 为 没有 闭环 ， 所 以 只 能 算 SLAM 的 一 个 模块 (后续 应 该 会 


像素 点 进行 概率 的 深度 测量 ， 有 效 降 低 了 位 姿 
画图 像 的 对 准 来 获得 稠密 地 图 和 


速 ， 超 出 了 本 文 的 讨论 范围 。 
机 器 视觉 组 的 Engel 等 人 G9 于 


2013 年 提出 了 基于 直接 跟踪 


odometry) 系 统 ， 该 VO 系统 是 


觉 里 程 计 。 


LSD-SLAM5), 得 到 了 不 采 月 
系统 通过 对 图 像 光度 直接 配 } 
深度 图 ， 生 成 具有 全 

它 具 有 如 下 


有 程 计 (semi-dense visual 
一 个 不 采用 特征 的 实时 的 视 
也 将 地 图 优化 融入 该 VO 系统 并 扩展 为 


a) 使 用 
来 完成 初始 


条 机 深度 初始 化 策略 3 


E 的 实时 的 SLAM 系统 。 该 
用 概率 模型 来 表示 半 笛 密 


完善 )， 文 中 宣称 速度 可 以 达到 传统 特征 点 法 的 五 倍 。 

直接 法 因为 是 比较 两 帧 图 像 之 间 的 像素 差异 ， 需 要 满足 
光度 不 变 ， 但 是 这 是 一 个 很 强 的 假设 ， 尤 其 是 针对 普通 的 
动 曝光 相机 。 在 做 DSO 工作 之 前 ，Engel 先 研究 了 光度 标定 
相关 工作 ， 因 为 他 认为 对 相机 的 曝光 时 间 、 暗 角 、 分 马 响 应 
等 参数 进行 标定 后 ， 能 够 让 直接 法 更 加 和 鲁 棒 59。 这 个 过 程 建 
模 了 相机 的 成 像 过程 ， 对 于 由 相机 曝光 不 同 所 引起 的 图 像 明 
上 暗 变 化 会 有 更 好 的 表现 。 DSO 是 一 种 结合 直接 法 和 稀 玻 法 的 
视觉 里 程 计 ， 它 不 检测 和 计算 特征 点 ， 而 是 采样 图 像 内 具有 
强度 梯度 的 像素 点 ， 它 将 光度 误差 模型 和 所 有 模型 参数 融入 
到 优化 函数 中 进行 联合 优化 ， 而 且 该 系统 结合 曝光 时 间 、 透 


以 于 滤波 器 方法 的 思路 


Wo 


义 随机 的 深度 初始 化 ， 并 利 


镜 晕 影 以 及 非 线性 响应 函数 的 影响 提出 了 完整 的 光度 标定 方 
法 ， 并 在 多 个 数据 集 上 进行 了 测试 ， 达 到 了 很 好 的 精度 和 速 


用 新 产生 的 数据 不 断 迭 代 优 化 直至 收敛 ， 当 初始 场景 的 深度 


方差 收敛 到 最 小 值 时 


IH 


化 完成 。 


度 ， 可 以 说 是 LSDSLAM 的 升级 版 。 进 一 步 地 ，Engel 小 组 
研究 了 双 目 的 DSO， 但 并 没有 开源 代码 〈 吴 佳 田 、 颜 沁 睿 等 


b) 通过 假设 图 像 


民 从 高 斯 分 布 , 对 每 个 像素 


深度 独立 计算 ， 通 过 


卡尔 曼 滤 波 更 新 深度 估计 ， 将 深度 图 的 


Ji T YHNZBU EE Chttps://github.com/HorizonAD/stereo dso)), 
而 且 包括 他 们 自己 在 内 的 很 多 研究 者 在 DSO 的 基础 上 扩展 ， 


RE A fI R 


j 密 和 高 精度 的 三 维 环境 地 


ll. 


c) 为 了 避免 尺 
而 且 考 虑 深度 和 极 线 上 


上 的 漂移 ， 将 估计 的 深度 均值 归 一 化 ， 
IEH, 在 关键 帧 的 直接 配 准 BE) 采用 


sim3 来 衡量 


函数 中 : EU 


被 归 一 化 的 光度 残 差 和 


尝试 给 DSO 添加 回环 检测 和 地 图 重用 的 模块 。 
将 相机 内 参 和 曝光 参数 作为 优化 变量 引入 优化 函数 ， 并 
了 其 相对 于 残 差 的 雅 可 比 是 DSO 的 最 大 创新 之 处 。 其 流 


变换 ， 并 将 光度 残 差 和 深度 残 差 一 起 放 入 优化 


o; (PE) o (PF ii) 


避免 误差 太 大 而 覆盖 其 他 的 了 
LSDSLAM 


程 。 


其 中 : 两 项 分 别 为 


o 
6 


| ll; 表示 Huber 核 函 数 ， 


十 计 和 地 图 优化 三 个 线 


a) EB 像 跟踪 o d 


要 计算 当前 帧 与 参考 帧 之 间 的 相对 变换 ， 


有 精确 方式 和 快速 方式 ， 都 采用 
RF ibe AWS HH 
有 实现 : 将 当前 帧 和 邻近 的 关键 帧 连 
关系 ， 通 过 打分 和 遍历 整个 附近 帧 来 

pb) 深 度 估计 。 当 相机 移动 超过 了 
键 帧 ， 将 之 前 关键 帧 
变换 得 到 该 关键 帧 


的 高 斯 牛顿 优化 方法 。 


定位 ， 在 本 文 里 没有 ， 但 是 开源 代码 里 


本 文 用 它 来 更 新 图 


榜 起 来 ， 计 算 坐 标 变换 


判断 是 否 完成 重 定 位 。 


闵 值 ， 那 么 需要 创建 关 


前 新 的 关键 帧 上 ， 通 sim3 
R 民 踪 帧 没有 变 为 关键 帧 ， 


搜索 范围 ， 然 后 通 


行 修正 。 


0c) 地 图 优化 。 其 目 
去 寻找 所 有 可 


D TH. mE 


首先 
似 度 ， 并 由 
选 帧 
过 全 


采用 自 适 应 的 方法 确定 
地 利 


观测 值 对 深度 进 


em 


日 闭环 解决 尺度 漂移 的 问题 。 
日 似 的 关键 帧 ， 并 计算 视觉 意义 上 的 相 
appearance-based mapping 算法 655 筛选 出 来 的 候 
行 跟踪 检测 ， 当 完成 闭环 约束 以 后 ， 再 通 


局 优化 得 到 


包括 关键 帧 组 成 的 姿态 


如 图 14 所 示 。 首 先是 两 帧 图 像 对 齐 初 始 化 和 地 图 点 的 更 新 : 
图 点 在 一 开始 被 观测 到 时 ， 其 深度 是 未 知 的 ， 随 着 相机 的 
动 , DSO 会 采用 沿 着 极 线 搜索 方式 在 每 张 图 像 上 追踪 这 些 
图 点 ， 跟 踪 过 程 会 确定 每 个 地 图 点 的 逆 深 度 和 变化 范围 ， 
后 通过 相机 视野 改变 、 相 机 平移 和 了 曝光 时 间 显著 改变 这 些 
BE Aik FARMER EM. amit tithe, DSO 
用 由 相 个 关键 帧 组 成 滑动 窗口 的 方式 ， 不 断 地 计算 需 删 除 
的 关键 帧 和 添加 关键 帧 ， 并 且 将 每 个 先前 关键 帧 中 的 地 图 点 
投影 到 新 关键 帧 中 ， 形 成 残 差 项 ， 同 时 在 新 的 关键 帧 中 更 新 
地 图 点 和 删除 外 点 。 
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5 E 
新 图 像 是 vw E 一 一 一 一 
ui 中 计算 新 帧 位 姿 -QE XD e 更 新 深度 估计 
[y 
MEN 后 端 优化 
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| H Y 
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图 14 DSO 的 系统 流程 
Fig. 14 DSO system flow chart 
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ei 


jlp1-5)- 


v, 表示 投影 点 和 周围 的 点 组 成 一 个 包含 八 个 点 的 图 案 
(pattern), A Fflü2g78, Æ DSO 中 ， 本 文 假设 这 八 个 点 在 
不 同 图 像 中 保持 灰 度 不 变 ，w, 表示 梯度 加 权 ， 梯度 越 高 权重 
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; PAP 点 在 当前 图 像 j 中 的 投影 位 置 ; 
Ki, j 的 上 曝光 时 间 ; a. 4 


较 好 的 初始 估计 ， 还 比较 依赖 梯度 下 降 的 优 


标 函 数 是 单 1 


后 需要 对 相机 位 姿 有 


计 。 但 这 通常 是 HR 


E 


Hm, Bios 
步 说 ， 如 果 想 在 DSO 


LES 


t, 分 别 为 


b. b; 为 亮度 传递 函数 的 参 


化 求解 相机 位 姿 ， 与 
DSO 初始 化 不 仅 需要 
化 策略 ， 而 它 成 


E 


青 往 


往 无 法 得 到 


上 加 重 定 位 功能 ， 首 先 需要 


PX 


个 比较 准 


EA, BAAR 


[0 道 误差 累积 了 多 少 。 而 在 


地 征 点 法 中 ， 地 图 


HK 


计算 位 姿 即 


重用 则 相对 简 六 
门 的 特征 描述 ， 


确 的 初始 估 


。 本 文 只 需 存 


然后 匹配 当前 加 


渚 空间 中 所 
像 中 看 到 的 


可 。 从 这 个 4 


度 来 看 : 


直接 法 


NH E BEI 


SOR E Ss 而 特征 


3 特征 点 法 和 直接 法 的 结 


点 法 则 更 适合 全 


局 匹配 与 回环 


法 精度 高 , 直 
k 此 大 学 机 器 人 感知 组 


种 半 直 接 法 的 视觉 里 程 计 CSVO)， 3 


接 法 速 
的 Forster 等 
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地 征 点 图 像 块 进 行 直接 匹配 来 获 了 
a 图 像 使 用 直接 匹 本 


HEBR, 两 者 是 否 可 
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直接 是 指 通过 对 图 像 中 


以 结合 呢 ? 


年 提出 的 一 
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面向 
妾 法 结合 ， 跟 踪 关 键 点 ， 不 计算 描述 

筷 估 计 相 机 的 运动 。 主 
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则 量 计算 深度 和 不 确定 性 ， 然 后 不 断 更 新 其 估计 ， 直 


& 标 加 入 地 图 。 


(b) FF EXT FF 
(b)Feature alignment 


(d) 深 度 估计 
(d)Depth estimation 
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点 云 ， 在 普通 PC 


中 运动 估计 


ao 
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图 点 到 当前 帧 氏 
。 如 图 15 (bo, 
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量 为 特征 点 位 置 ur 。 
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a 
Ts -engnin- 2 = A(T gy sp) 


liz 
"i 


E d X 


x 


co 


SS LIK 


S| A) at ETRE hit, ü 
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合 分 布 的 深度 滤波 器 ,采用 道 深度 
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于 深度 估计 和 相机 位 姿 的 
通过 光 流 跟踪 对 特征 点 位 
能 观察 到 的 地 图 点 p CR 
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SRW KE OX 
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立 置 优化 后 ， 


a 


3 
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个 设 定 在 最 小 与 最 


5 分 布 


进行 分 别 优化 ， 
25 mp ph kh GB X 


， 优 化 变量 为 相机 的 变换 矩阵 了 


作为 参数 化 形式 。 


ree cor ie A 
矩阵 得 到 对 应 的 极 线 ， 在 极 线 上 找到 特征 


F 种 子 点 ， 每 个 种 子 点 根据 变 
点 的 对 应 点 ， 通 


oy 所 以 它 在 其 他 的 场合 应 月 
别 如 在 单 目 初始 化 时 ， 是 采 上 月 
六 于 一 个 平面 小 % 
量 ， 没 有 考虑 旋转 。 而 且 它 
cr ES Ene 没有 闭环 功能 ,没有 重 定位 ， 
即使 如 此 ， 它 也 不 失 为 一 个 优秀 的 
。2016 Forster 等 人 69 对 SVO 进行 改进 ， 
版 本 ， 新 的 版 本 作出 了 很 大 的 改进 ， 增 加 了 边 
ene. 并 | 日 考 虑 了 IMU 的 运动 先 验 信 息 , 支持 大 视 场 人 

相机 (如 鱼 眼 相机 和 全 景 相机 〉 和 多 相机 系统 ， 该 系统 目前 
开源 了 可 执行 版 本 (http://rpg.ifi.uzh.ch/svo2.html )。 值 得 
一 提 的 是 ，Foster 对 VIO BJ iie 183E17 T YEA 
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点 法 和 直接 法 的 发 展 方向 
虽然 直接 法 在 某 种 程度 上 缓解 了 对 特征 的 依赖 ， 


的 推导 ， 尤 其 


其 于 线 面 特征 


半 稠 密 乃 至 稠密 地 图 ， 但 所 需 的 计算 量 很 大 ; 
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HPA 点 表示 空间 直线 的 方式 实现 


日 机 观测 到 这 两 个 端点 ,所 以 该 系统 
景 。Sola 等 人 [6 在 此 基础 上 提出 将 
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时 对 点 `、 线 特征 的 重 投影 误差 采取 不 同 的 权重 。 在 此 基础 上 ， 
PL-SLAM[55 通 过 词 袋 模型 实现 了 回环 检测 , 而 且 通过 点 线 结 6 ERES 
合 得 到 的 地 图 更 丰富 ， 更 容易 得 到 高 层次 场景 结构 。Lee 等 6.1 语义 SLAM 
人 [59 首先 用 MSLD 线段 描述 子 构 建 字 典 树 进 行 场景 识别 , 而 语义 SLAM 是 在 传统 SLAM 的 基础 上 构建 带 有 标签 信 
旦 使 用 线 特征 实现 了 实时 的 闭环 检测 ， 随 后 他 们 利用 线 特征 息 的 环境 地 图 ,如 图 16 所 示 。 机 器 人 对 环境 的 认识 分 为 感知 、 
在 室外 场景 实现 位 置 识别 算法 [61， 并 在 上 万 张 真 实 世 界 的 图 认 知 和 理解 三 个 层面 。 为 了 让 机 器 人 具备 环境 理解 能 力 ， 并 
像 数据 库 中 测试 成 功 。 进 一 步 地 ，Zhang 等 人 [68] 在 此 基础 上 在 此 基础 上 进行 自主 导航 和 路 径 规 划 ， 构 建 高 层次 的 语义 地 
实现 了 SLSLAM (stereo line-based SLAM), 该 系统 提出 了 基 图 是 必 不 可 少 的 。 语义 SLAM 有 两 种 方式 , 一 种 是 在 构建 完 
于 线段 特征 的 SLAM 框架 ， 包括 利用 线 特 征 完成 运动 估计 、 3D 地 图 后 进一步 对 地 图 进行 语义 解析 , 这 种 方法 虽然 精度 高 ， 
位 姿 优 化 、 闭 环 检测 等 ， 构 建 了 目前 较为 完善 的 基于 线段 特 日 有 点 偏离 真正 的 语义 SLAM; 另 一 种 方法 是 在 估计 相机 位 
征 的 SLAM 系统 。Zuo 等 人 [9 针对 直线 特征 采用 正 交 表示 法 姿 的 同时 对 2D 图 像 中 的 关键 帧 进行 解析 , 再 整合 进 3D 图 像 


作为 最 小 参数 化 ， 而 且 推导 出 了 基于 线 特征 的 误差 函数 的 雅 ”中 鸣 。 文 献 [85] 使 用 深度 图 像 在 ORBSLAM 框架 中 对 每 个 关 
可 比 矩 阵 解析 形式 。 键 帧 进行 目标 检测 和 3D 分 割 ， 然 后 将 分 割 的 结果 进行 数据 
其 于 面 特 征 的 研究 有 : 2011 年 ETH 的 Lee SAM $e 关联 ， 得 到 语义 信息 和 对 象 实体 的 环境 地 图 。 文 献 [86] 也 是 


通过 面 约束 来 减少 BA 的 计算 量 ， 文献 [71] 使 用 深度 相机 在 。” ”通过 深度 神经 网 络 对 深度 图 像 进 行 语义 分 割 ， 数 据 集 的 测试 
两 个 不 同 坐 标 系 下 完成 点 、 面 的 配 准 ， 并 在 BA 框架 下 实现 表明 通过 多 视角 一 致 性 优化 训练 能 够 提高 分 割 结果 和 系统 性 
了 点 面 结合 的 SLAM 系统 ; Yang 等 人 [J 针对 低 纹理 环境 提 ” ” 能。 同样 地 ， 文 献 [87] 也 是 对 深度 图 像 采 用 卷 积 神经 网 络 和 
出 单 目 平面 SLAM 方法 , 并 验证 该 方法 能 够 改善 状态 估计 和  ” 稠密 SLAM 系统 ， 不 仅 能 够 生成 有 效 的 3D 语义 地 图 ， 而 且 
地 图 构建 ; 李 海 丰 等 人 [5 为 了 减少 点 特征 的 计算 量 和 误差 大 能够 在 实时 (25 Frame/S) 的 情况 下 有 交互 地 使 用 。 可 以 看 
的 问题 ,在 EKF 框架 下 提出 了 基于 点 、 线 段 、 平 面 特征 融合 出 ,结合 语义 和 SLAM 的 研究 还 在 初级 阶段 ， 目 前 大 多 是 利 
的 VSLAM 算法 (PLP-SLAM)， 并 在 数据 集 上 进行 了 验证 。 用 深度 学 习 对 稠密 的 SLAM 地 图 进行 语义 上 的 分 割 , 未 来 深 
虽然 线 面 特征 的 VSLAM 有 一 定 的 发 展 ， 但 是 在 理论 上 | 度 学 习 将 在 构建 语义 SLAM 地 图 上 发 挥 更 大 的 作用 。 
还 需要 丰富 线 面 特 征 的 描述 、 提 取 和 匹配 ， 在 应 用 上 它们 上 
特征 点 法 适用 范围 窗 ， 但 是 将 其 作为 人 造 环境 中 的 辅助 和 高 
层次 表达 是 可 行 的 。 

近来 深度 学 习 广 泛 流 行 ， 它 的 主要 优势 是 在 物体 识别 方 
面 ， 尤 其 是 计算 机 视觉 领域 ， 主 流 的 识别 算法 几乎 都 采用 深 


imi 


TL 


度 学 习 。 而 VSLAM 框架 中 的 视觉 里 程 计 和 回环 检测 都 是 与 

图 像 的 检测 和 识别 相关 联 ， 所 以 将 深度 学 习 用 于 VSLAM 中 图 16 稠密 地 图 和 语义 地 图 

的 前 端 是 顺理成章 的 事情 。 广 义 上 说 ， 直 接 法 VSLAM 就 是 Fig. 16 Dense and semantic maps 

直接 通过 图 像 得 到 相机 位 姿 估计 。 目 前 深度 学 习 与 VSLAM 6.2 动态 环境 SLAM 

的 结合 主要 是 利用 深度 学 习 的 方法 完成 视觉 里 程 计 模 块 和 巨 针对 动态 场景 有 学 者 做 了 一 些 探索 性 的 工作 ， 文 献 [88] 


环 检测 模块 ， 也 就 是 说 采用 深度 学 习 的 方法 可 以 直接 估计 出 提出 了 正 态 分 布 变换 占用 图 (NDT-OM), 结合 了 正 态 分 布 变 
两 帧 闻 的 运动 估计 ， 所 以 本 文大 胆 地 将 结合 深度 学 习 的 换 (NDT) 和 占用 网 格 地 图 两 种 表示 的 优点 ， 而 且 制 定 了 精 
VSLAM 归 为 直接 法 VSLAM 中 。 确 的 递归 更 新 ， 设 计 了 占用 更 新 公式 ， 在 动态 环境 中 构建 
虽然 这 种 直接 法 VSLAM 是 一 个 较 新 的 方向 ， 但 是 在 最 致 的 地 图 。Einhom 等 人 [9 在 此 之 上 提出 一 种 检测 和 处 理 动 
近 大 有 爆发 之 势 : CNN-SLAMI"1 是 比较 完整 的 VSLAM 系统 ， ” 态 物 体 的 方法 ， 然 后 结合 DNT 和 占用 网 格 地 图 实现 基于 图 
它 使 用 卷 积 神经 网 络 (convolutional neural networks, CNN) 优化 的 SLAM 算法 ,但 是 无 论 是 精度 还 是 实际 效果 还 达 不 到 
代替 LSDSLAM 中 的 深度 估计 和 图 像 匹配 ， 从 单 视 角 中 得 到 需求 , 所 以 目前 大 多 数 成 熟 的 SLAM 方法 都 是 假定 静态 环境 ， 
了 语义 连贯 的 场景 重建 ，UnDeepVOL5 采 用 非 监督 学 习 在 训 然后 将 移动 部 分 视 为 异常 值 ， 但 是 按照 人 类 的 思维 ， 这 个 模 
练 中 使 用 立体 图 像 对 ， 不 仅 可 以 估计 深度 和 运动 ， 而 且 能 够 型 是 不 对 的 ， 至 少 是 有 缺陷 的 。 假 设 在 一 个 场景 中 ， 对 面 有 
构建 绝对 尺度 的 稠密 深度 地 图 ; 文献 [76] 采 用 CNN 提取 特征 车 和 人 (行驶 或 者 静止 ), 本 文 构建 该 动态 地 图 ,有 如 下 方式 : 
点 和 匹配 特征 点 ,在 CPU 上 实现 了 实时 的 SLAM ,文献 [77]、 首先 将 地 图 元 素 进 行 分 块 包括 静止 物体 和 运动 物体 ， 一 种 是 
[78] 分 别 利用 无 监督 学 习 和 监督 学 习 完 成 了 深度 估计 和 运 亏 采用 深度 学 习 识别 出 建筑 、 树 木 、 地 面 等 静止 物体 ， 以 及 车 
估计 ， 文 献 [79] 利 用 CNN 和 RNN 构建 了 一 个 (视觉 惯 导 里 ， 辆 行人 等 运动 物体 ， 通 过 静止 物体 估计 相机 和 运动， 然后 重 构 
Feit) VIO, 输入 图 像 与 惯 导 信息 , 直接 输出 运动 , 文献 [80]、 运动 物体 ， 另 一 种 是 通过 人 工 智能 方式 ， 针 对 不 同 的 物体 采 
[81] 和 [82] 分 别 利 用 CNN 实现 SLAM 中 的 重 定位 功能 和 闭环 用 不 同 的 预测 模型 ， 如 首先 识别 出 车 辆 ， 然 后 识别 出 驾驶 座 
检测 模块 。 这 些 文章 代表 了 近年 来 研究 者 们 的 一 部 分 工作 ， 上 是 否 有 人 ， 如 果 没 人 可 以 当做 静止 物体 ， 如 果 有 人 ， 会 估 
虽然 深度 学 习 展示 了 它 在 SLAM 上 运动 估计 、 重 定位 、 闭 环 计 车 子 运动 距离 和 方向 ， 针 对 行人 ， 也 会 估计 人 的 运动 距离 
检测 上 的 潜能 ， 在 速度 上 已 经 可 以 与 传统 特征 点 法 媲美 而 且 和 方向 。 与 语义 SLAM 一 样 ， 动 态 环 境 的 SLAM 需要 借 力 


cr 


还 有 提升 空间 ， 但 在 精度 上 尚未 达到 ORBSLAM 的 水 平 。 深度 学 习 和 人 工 智 能 ， 还 有 很 大 的 发 展 空间 。 

VSLAM 是 具备 几何 模型 的 优化 问题 ， 而 深度 学 习 的 优 63 多 机 器 人 SLAM 
势 在 于 识别 ， 将 两 者 结合 利用 几何 结构 得 到 高 精度 位 姿 ， 再 多 机 器 人 SLAM 有 很 多 优点 ， 如 可 执行 多 重任 务 、 协 同 
利用 深度 学 习 将 图 像 与 语义 进行 关联 ,生成 环境 的 语义 地 图 ， 完成 同一 任务 、 执 行 任 务 耗 时 更 短 、 构 建 地 图 的 精度 更 高 和 
构建 环境 的 语义 知识 库 531， 这 将 是 未 来 重要 的 发 展 方向 。 容错 能 力 更 强 等 。 多 机 器 人 SLAM 的 核心 问题 是 多 机 器 人 之 


间 的 地 图 融合 ， 如 何 利 用 共享 的 信息 改进 全 局 地 图 的 精度 是 
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关键 。 这 有 两 种 情况 : 一 种 是 机 器 人 之 间 的 相对 位 置 关系 已 
知 或 者 固定 ， 只 需要 计算 地 图 的 转换 矩阵 8I， 男 一 种 是 机 器 
人 之 间 的 相对 位 置 未 知 或 者 变化 时 ， 可 以 通过 各 自 构建 的 地 
图 之 间 的 公共 区 域 ， 或 者 采用 传感器 对 相对 位 姿 进 行 测量 ， 
并 在 协同 SLAM 中 作为 一 个 待 优化 的 边 进 行 约束 。 文 献 [91] 
不 知道 机 器 人 之 间 的 相对 位 姿 ， 通 过 匹配 地 图 的 点 特征 在 
astSLAM 的 框架 下 完成 地 图 的 融合 。 文 献 [92] 使 用 一 个 飞行 
器 与 一 个 地 面 机 器 人 进行 协作 定位 ， 在 半 结 构 化 的 室外 环境 
构建 地 图 。 文 献 [93] 采 用 机 器 人 独立 进行 SLAM， 生 成 独 
z 的 地 图 。 当 机 器 人 相遇 时 ， 计 算 地 图 的 相似 处 ， 进 行 合 
全 局 地 图 。 文 献 [94] 提 出 一 种 飞行 器 和 地 面 机 器 人 联合 
立方 法 ， 通 过 飞行 器 的 机 载 视觉 传感器 对 准 由 地 面 机 器 人 
深度 相机 构建 的 地 图 ， 得 到 3D 重 构 的 稠密 地 图 ， 解 决 了 
也 联合 定位 问题 。 文 献 [95] 利 用 神经 网 络 进行 地 图 融合 ， 
门 先 从 网 格 地 图 中 提取 特征 ， 然 后 根据 特征 计算 两 个 地 图 
间 的 旋转 与 平移 。Zou 等 人 [9 专门 针对 动态 环境 开发 了 一 款 
多 相机 的 VSLAM 系统 (第 一 个 适用 于 动态 环境 的 多 相机 
VSLAM )， 该 系统 采用 基于 “intercamer” 和 “intracamera” 
的 位 置 估计 对 静态 点 和 动态 点 的 分 类 ， 可 用 于 多 机 器 人 相对 
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独立 地 完成 同时 定位 和 建 图 工作 。 

多 机 器 人 VSLAM 如 图 17 所 示 , 是 VSLAM 的 重要 部 分 ， 
是 实现 机 器 人 自主 编队 进行 任务 规划 和 导航 的 必需 属性 。 未 
来 ,多 机 器 人 VSLAM 系统 框架 、 多 机 器 人 之 间 的 地 图 融合 ， 
以 及 利用 子 地 图 和 全 局 地 图 的 重合 提高 地 图 的 精度 和 整体 系 
统 性 能 ， 还 有 如 何 提高 传感器 失效 或 构建 地 图 失败 后 的 系统 
容错 能 力 (在 复杂 环境 中 尤其 重要 ), 这 些 都 是 待 解决 的 问题 


和 发 展 方向 。 
à iur 


17. 多 机 器 人 VSLAM 
Fig.17 Multi-robot vslam 
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本 文 对 VSLAM 的 历史 和 发 展 历 程 以 及 VSLAM 的 各 个 
模块 进行 了 阐述 , 对 基于 特征 法 、 直 接 法 和 混合 法 的 VSLAM 
技术 的 最 新 进展 情况 进行 了 分 析 ， 并 详细 介绍 其 中 的 关键 技 
术 包 括 初 始 化 、 运 动 跟 踪 及 其 优化 算法 的 最 新 成 果 。 经 过 30 
年 的 发 展 ， 静 态 环境 下 ，VSLAM 的 基本 理论 和 系统 框架 已 
经 成 熟 ， 但 是 动态 环境 和 多 机 协同 是 未 来 VSLAM 的 必需 属 
性 也 是 其 痛 点 ， 还 需要 有 新 的 理论 和 新 的 技术 给 以 支撑 。 另 
外 ， 一 些 学 者 从 改进 VSLAM 性 能 、 扩 展 应 用 场景 方面 进行 
了 新 的 尝试 ， 如 采用 深度 学 习 方 法 来 解决 图 像 匹 配 和 深度 估 
计 等 问题 ， 这 些 均 是 VSLAM 未 来 的 发 展 方向 ， 值 得 该 领域 
研究 者 的 关注 。 
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